۱۴ مهر ۱۴۰۴فارسی

پیش‌بینی سری‌های زمانی را با پایتون بیاموزید. این راهنمای جامع، از ARIMA و SARIMA تا یادگیری ماشین و LSTM را برای تحلیل پیش‌بینی دقیق پوشش می‌دهد.

پیش‌بینی تحلیلی با پایتون: نگاهی عمیق به پیش‌بینی سری‌های زمانی

در دنیای مبتنی بر داده ما، توانایی پیش‌بینی آینده دیگر یک هنر رازآلود نیست، بلکه یک عملکرد حیاتی تجاری است. از پیش‌بینی فروش در یک زنجیره خرده‌فروشی جهانی گرفته تا پیش‌بینی مصرف انرژی برای یک شهر هوشمند، پیش‌بینی روندهای آینده یک مزیت رقابتی کلیدی است. در قلب این قدرت پیش‌بینی، پیش‌بینی سری‌های زمانی قرار دارد و ابزار انتخابی دانشمندان داده مدرن، پایتون است.

این راهنمای جامع شما را در دنیای پیش‌بینی سری‌های زمانی با استفاده از پایتون راهنمایی خواهد کرد. ما با اصول اولیه شروع می‌کنیم، مدل‌های آماری کلاسیک را بررسی می‌کنیم، به سراغ تکنیک‌های مدرن یادگیری ماشین و یادگیری عمیق می‌رویم و شما را با دانش لازم برای ساخت، ارزیابی و استقرار مدل‌های پیش‌بینی قوی مجهز می‌کنیم. چه یک تحلیلگر داده باشید، چه مهندس یادگیری ماشین، یا یک رهبر تجاری، این مقاله نقشه راه عملی برای تبدیل داده‌های تاریخی به بینش‌های آینده عملی به شما ارائه می‌دهد.

درک اصول داده‌های سری زمانی

قبل از اینکه بتوانیم مدل‌هایی بسازیم، ابتدا باید ماهیت منحصربه‌فرد داده‌های خود را درک کنیم. سری زمانی دنباله‌ای از نقاط داده است که در نقاط زمانی متوالی و با فاصله‌های مساوی جمع‌آوری شده‌اند. این وابستگی زمانی، کار با آن را هم چالش‌برانگیز و هم جذاب می‌کند.

چه چیزی داده‌های سری زمانی را خاص می‌کند؟

داده‌های سری زمانی معمولاً می‌توانند به چهار جزء کلیدی تجزیه شوند:

روند (Trend): جهت کلی بلندمدت داده‌ها. آیا در طول زمان به طور کلی در حال افزایش، کاهش یا ثابت ماندن است؟ به عنوان مثال، پذیرش جهانی تلفن‌های هوشمند طی بیش از یک دهه یک روند صعودی مداوم را نشان داده است.
فصلی بودن (Seasonality): الگوها یا نوسانات قابل پیش‌بینی و تکرارشونده که در فواصل زمانی ثابت رخ می‌دهند. فروش خرده‌فروشی را در فصل تعطیلات هر سال یا ترافیک وب‌سایت را که در روزهای هفته افزایش می‌یابد، در نظر بگیرید.
چرخه‌ای بودن (Cyclicality): الگوهایی که دوره زمانی ثابتی ندارند و اغلب با چرخه‌های اقتصادی یا تجاری گسترده‌تر مرتبط هستند. این چرخه‌ها طولانی‌تر و متغیرتر از الگوهای فصلی هستند. یک چرخه تجاری رونق و رکود که چندین سال طول می‌کشد، یک مثال کلاسیک است.
نامنظم بودن (یا نویز) (Irregularity or Noise): مولفه تصادفی و غیرقابل پیش‌بینی داده‌ها که پس از در نظر گرفتن روند، فصلی بودن و چرخه‌ها باقی می‌ماند. این نشان‌دهنده تصادفی بودن ذاتی در یک سیستم است.

اهمیت ایستایی (Stationarity)

یکی از مهم‌ترین مفاهیم در تحلیل کلاسیک سری‌های زمانی، ایستایی است. یک سری زمانی زمانی ایستا در نظر گرفته می‌شود که خصوصیات آماری آن - به ویژه میانگین، واریانس و خودهمبستگی - همگی در طول زمان ثابت باشند. به عبارت ساده، یک سری ایستا، سری‌ای است که رفتار آن در طول زمان تغییر نمی‌کند.

چرا اینقدر مهم است؟ بسیاری از مدل‌های پیش‌بینی سنتی، مانند ARIMA، بر این فرض بنا شده‌اند که سری زمانی ایستا است. آنها برای مدل‌سازی فرآیندی طراحی شده‌اند که از نظر آماری، پایدار است. اگر یک سری ناایستا باشد (مثلاً روند روشنی داشته باشد)، توانایی مدل برای ایجاد پیش‌بینی‌های دقیق به شدت مختل می‌شود.

خوشبختانه، ما اغلب می‌توانیم یک سری ناایستا را از طریق تکنیک‌هایی مانند تفکیک (تفریق مشاهده قبلی از مشاهده فعلی) یا اعمال تبدیلات لگاریتمی یا رادیکال دوم، به یک سری ایستا تبدیل کنیم.

راه‌اندازی محیط پایتون شما برای پیش‌بینی

قدرت پایتون از اکوسیستم وسیع آن از کتابخانه‌های متن‌باز ناشی می‌شود. برای پیش‌بینی سری‌های زمانی، چند مورد مطلقاً ضروری هستند.

کتابخانه‌های ضروری که به آن‌ها نیاز خواهید داشت

pandas: سنگ بنای دستکاری و تحلیل داده در پایتون. شیء DataFrame قدرتمند و قابلیت‌های تخصصی سری زمانی آن ضروری هستند.
NumPy: بسته اساسی برای محاسبات علمی، که پشتیبانی از آرایه‌ها و ماتریس‌های بزرگ و چند بعدی را فراهم می‌کند.
Matplotlib & Seaborn: کتابخانه‌های محبوب برای بصری‌سازی داده‌ها. ایجاد نمودار سری زمانی اولین قدم برای درک الگوهای آن است.
statsmodels: یک ابزار قدرتمند برای مدل‌سازی آماری. این کلاس‌ها و توابعی را برای تخمین بسیاری از مدل‌های آماری مختلف، از جمله مدل‌های کلاسیک سری زمانی مانند ARIMA و SARIMA فراهم می‌کند.
scikit-learn: محبوب‌ترین کتابخانه برای یادگیری ماشین عمومی. ما از آن برای پیش‌پردازش داده‌ها، مهندسی ویژگی و اعمال مدل‌های ML برای مشکلات پیش‌بینی استفاده می‌کنیم.
Prophet: این کتابخانه که توسط Meta (فیسبوک سابق) توسعه یافته است، برای آسان و در دسترس کردن پیش‌بینی در مقیاس، به ویژه برای سری‌های زمانی مرتبط با کسب‌وکار با اثرات فصلی قوی، طراحی شده است.
TensorFlow & Keras / PyTorch: اینها چارچوب‌های یادگیری عمیق هستند که برای ساخت مدل‌های پیچیده مانند LSTM استفاده می‌شوند، که می‌توانند الگوهای بسیار پیچیده و غیرخطی را در داده‌های متوالی ثبت کنند.

بارگذاری و آماده‌سازی داده‌های شما

آماده‌سازی داده‌ها یک گام اول حیاتی است. بیشتر داده‌های سری زمانی در قالب‌هایی مانند فایل‌های CSV یا Excel ارائه می‌شوند. با استفاده از pandas، می‌توانیم این داده‌ها را بارگذاری کرده و برای تحلیل آماده کنیم. مهمترین گام اطمینان از این است که داده‌های شما دارای یک DatetimeIndex مناسب هستند.


import pandas as pd

# بارگذاری مجموعه داده
# فرض کنید 'data.csv' دارای دو ستون است: 'Date' و 'Sales'
df = pd.read_csv('data.csv')

# تبدیل ستون 'Date' به یک شیء datetime
df['Date'] = pd.to_datetime(df['Date'])

# تنظیم ستون 'Date' به عنوان شاخص
df.set_index('Date', inplace=True)

# اکنون DataFrame ما توسط زمان شاخص‌گذاری شده است که برای پیش‌بینی ایده‌آل است
print(df.head())

راهنمای عملی: از داده تا پیش‌بینی

بیایید گردش کار معمول برای یک پروژه پیش‌بینی سری زمانی را با استفاده از یک مجموعه داده فرضی فروش جهانی مرور کنیم.

گام ۱: تحلیل داده‌های اکتشافی (EDA)

هرگز بدون نگاه کردن به داده‌های خود شروع به مدل‌سازی نکنید. بصری‌سازی کلیدی است.

بصری‌سازی سری زمانی: یک نمودار خطی ساده می‌تواند روندها، فصلی بودن و هرگونه رویداد غیرمعمول را آشکار کند.


import matplotlib.pyplot as plt

df['Sales'].plot(figsize=(12, 6), title='Global Sales Over Time')
plt.show()

تجزیه سری: برای درک بهتر اجزا، می‌توانیم از `statsmodels` برای تجزیه سری به بخش‌های روند، فصلی و باقیمانده استفاده کنیم.


from statsmodels.tsa.seasonal import seasonal_decompose

result = seasonal_decompose(df['Sales'], model='additive', period=12) # با فرض داده‌های ماهانه با فصلی بودن سالانه
result.plot()
plt.show()

بررسی ایستایی: یک آزمون آماری رایج برای ایستایی، آزمون افزوده دیکی-فولر (ADF) است. فرضیه صفر این است که سری ناایستا است. اگر مقدار p-value از آزمون کمتر از سطح معنی‌داری (مثلاً ۰.۰۵) باشد، می‌توانیم فرضیه صفر را رد کرده و نتیجه بگیریم که سری ایستا است.

گام ۲: مدل‌های پیش‌بینی کلاسیک

مدل‌های آماری کلاسیک دهه‌هاست که اساس پیش‌بینی سری‌های زمانی بوده‌اند و همچنان فوق‌العاده قدرتمند و قابل تفسیر هستند.

ARIMA: ابزار اصلی پیش‌بینی سری زمانی

ARIMA مخفف Autoregressive Integrated Moving Average است. این یک مدل همه‌کاره است که سه جزء را ترکیب می‌کند:

AR (Autoregressive): یک مدل رگرسیون که از رابطه وابسته بین یک مشاهده و تعدادی مشاهدات تاخیری (p) استفاده می‌کند.
I (Integrated): استفاده از تفکیک مشاهدات خام (d) برای ایستا کردن سری زمانی.
MA (Moving Average): مدلی که از وابستگی بین یک مشاهده و خطای باقیمانده از یک مدل میانگین متحرک اعمال شده بر مشاهدات تاخیری (q) استفاده می‌کند.

این مدل به صورت ARIMA(p, d, q) نشان داده می‌شود. یافتن مقادیر بهینه برای این پارامترها بخش کلیدی فرآیند مدل‌سازی است.


from statsmodels.tsa.arima.model import ARIMA

# فرض کنید داده‌ها به مجموعه‌های آموزش و آزمون تقسیم شده‌اند
# model = ARIMA(train_data['Sales'], order=(5, 1, 0))
# model_fit = model.fit()

# دریافت پیش‌بینی
# forecast = model_fit.forecast(steps=len(test_data))

SARIMA: مدیریت فصلی بودن با ظرافت

SARIMA (Seasonal ARIMA) یک توسعه از ARIMA است که به طور صریح از داده‌های سری زمانی با مولفه فصلی پشتیبانی می‌کند. این پارامترهای اضافی (P, D, Q, m) را برای در نظر گرفتن الگوهای فصلی اضافه می‌کند.


from statsmodels.tsa.statespace.sarimax import SARIMAX

# model = SARIMAX(train_data['Sales'], order=(1, 1, 1), seasonal_order=(1, 1, 1, 12))
# model_fit = model.fit()

گام ۳: رویکردهای یادگیری ماشین

ما همچنین می‌توانیم یک مسئله سری زمانی را به عنوان یک مسئله یادگیری نظارت شده چارچوب‌بندی کنیم. این به ما اجازه می‌دهد تا از الگوریتم‌های قدرتمند یادگیری ماشین مانند Gradient Boosting استفاده کنیم.

مهندسی ویژگی برای سری‌های زمانی

برای استفاده از مدل‌های ML، نیاز به ایجاد ویژگی از داده‌های نمایه‌شده با زمان داریم. این می‌تواند شامل موارد زیر باشد:

ویژگی‌های مبتنی بر زمان: سال، ماه، روز هفته، فصل، هفته سال.
ویژگی‌های تاخیری: مقدار سری در گام‌های زمانی قبلی (مثلاً فروش ماه گذشته).
ویژگی‌های پنجره متحرک: آمارهایی مانند میانگین متحرک یا انحراف معیار متحرک در یک پنجره زمانی مشخص.

استفاده از مدل‌هایی مانند XGBoost یا LightGBM

پس از داشتن یک مجموعه ویژگی، می‌توانیم یک مدل رگرسیون مانند XGBoost را برای پیش‌بینی متغیر هدف آموزش دهیم. هدف، مقداری است که می‌خواهیم پیش‌بینی کنیم (مثلاً `Sales`) و ویژگی‌ها، ویژگی‌های زمانی و تاخیری مهندسی شده هستند.

گام ۴: یادگیری عمیق برای الگوهای پیچیده

برای سری‌های زمانی بسیار پیچیده با الگوهای غیرخطی، مدل‌های یادگیری عمیق می‌توانند عملکرد برتری ارائه دهند.

شبکه‌های LSTM: به خاطر سپردن گذشته

حافظه طولانی کوتاه‌مدت (LSTM) نوعی شبکه عصبی بازگشتی (RNN) است که به طور خاص برای یادگیری وابستگی‌های بلندمدت طراحی شده است. این شبکه‌ها برای داده‌های متوالی مانند سری‌های زمانی عالی هستند زیرا دارای یک 'حافظه' داخلی هستند که می‌تواند اطلاعات را از گام‌های زمانی قبلی برای اطلاع‌رسانی پیش‌بینی‌های آینده حفظ کند.

ساخت یک مدل LSTM شامل موارد زیر است:

مقیاس‌بندی داده‌ها (شبکه‌های عصبی با داده‌های مقیاس‌بندی شده، مثلاً بین ۰ تا ۱، بهتر عمل می‌کنند).
بازسازی داده‌ها به دنباله‌هایی با طول ثابت (به عنوان مثال، از ۶۰ روز آخر داده برای پیش‌بینی روز بعد استفاده کنید).
ساخت معماری LSTM با استفاده از کتابخانه‌ای مانند Keras یا PyTorch.
آموزش مدل روی داده‌های آموزشی و استفاده از آن برای پیش‌بینی مقادیر آینده.

ارزیابی پیش‌بینی شما: پیش‌بینی‌های شما چقدر خوب هستند؟

یک مدل بی‌فایده است اگر ندانید چقدر خوب عمل می‌کند. ارزیابی یک گام حیاتی است.

معیارهای کلیدی عملکرد

معیارهای رایج برای ارزیابی دقت پیش‌بینی‌های شما شامل موارد زیر است:

میانگین خطای مطلق (MAE): میانگین تفاوت‌های مطلق بین مقادیر پیش‌بینی شده و واقعی. درک و تفسیر آن آسان است.
میانگین خطای مربعات (MSE): میانگین مربعات تفاوت‌ها. خطاهای بزرگتر را نسبت به MAE به شدت جریمه می‌کند.
ریشه میانگین خطای مربعات (RMSE): ریشه مربع MSE. در همان واحدهای داده اصلی است و در نتیجه تفسیرپذیرتر از MSE است.
میانگین خطای درصدی مطلق (MAPE): میانگین خطاهای درصدی مطلق. دقت را به صورت درصد بیان می‌کند که برای گزارش‌دهی کسب‌وکار مفید است.

اهمیت مجموعه آزمون نگهداشته شده (Hold-out Test Set)

برخلاف مسائل یادگیری ماشین استاندارد، شما نمی‌توانید به طور تصادفی داده‌های سری زمانی را برای آموزش و آزمون تقسیم کنید. انجام این کار منجر به نشت داده می‌شود، جایی که مدل از اطلاعات آینده که نباید به آن دسترسی داشته باشد، یاد می‌گیرد. تقسیم‌بندی باید همیشه نظم زمانی را رعایت کند: آموزش بر روی گذشته و آزمون بر روی جدیدترین داده‌ها.

موضوعات پیشرفته و کتابخانه‌های مدرن

خودکارسازی پیش‌بینی با Prophet

Prophet کتابخانه‌ای است که توسط تیم علم داده هسته Meta توسعه یافته است. این کتابخانه به گونه‌ای طراحی شده است که بسیار خودکار و قابل تنظیم باشد و آن را به گزینه‌ای عالی برای برنامه‌های پیش‌بینی تجاری تبدیل می‌کند. این کتابخانه بهترین عملکرد را با سری‌های زمانی که دارای اثرات فصلی قوی و چندین فصل داده تاریخی هستند، دارد.

نقاط قوت کلیدی Prophet عبارتند از توانایی آن در:

انطباق خودکار با چندین فصلی بودن (مانند هفتگی، سالانه).
گنجاندن اثر تعطیلات و رویدادهای خاص.
مدیریت قوی داده‌های از دست رفته و داده‌های پرت.


# from prophet import Prophet

# # Prophet نیاز دارد که ستون‌ها 'ds' (برچسب تاریخ) و 'y' (هدف) نامگذاری شوند
# df_prophet = df.reset_index().rename(columns={'Date': 'ds', 'Sales': 'y'})

# model = Prophet()
# model.fit(df_prophet)

# future = model.make_future_dataframe(periods=365)
# forecast = model.predict(future)

# model.plot(forecast)

پیش‌بینی سری زمانی چند متغیره

تا اینجا، ما در مورد پیش‌بینی تک متغیره (پیش‌بینی یک سری واحد بر اساس گذشته خود آن) بحث کردیم. پیش‌بینی چند متغیره شامل استفاده از چندین متغیر وابسته به زمان برای پیش‌بینی یک هدف واحد است. به عنوان مثال، شما ممکن است هزینه‌های بازاریابی، شاخص‌های اقتصادی و قیمت‌گذاری رقبا (همه به عنوان سری‌های زمانی) را برای پیش‌بینی فروش خود استفاده کنید. مدل‌هایی مانند VAR (Vector Autoregression) و VECM، و همچنین معماری‌های پیچیده‌تر یادگیری عمیق، می‌توانند این سناریوها را مدیریت کنند.

نتیجه‌گیری: آینده پیش‌بینی با پایتون

پیش‌بینی سری‌های زمانی یک حوزه غنی و متنوع است و پایتون اکوسیستمی کامل برای مقابله با هر چالش پیش‌بینی ارائه می‌دهد. ما از مفاهیم بنیادی روندها و فصلی بودن به پیاده‌سازی مدل‌های پیچیده یادگیری عمیق سفر کردیم.

نکته کلیدی این است که هیچ مدل 'بهترین' واحدی برای همه مشکلات وجود ندارد. انتخاب به ویژگی‌های داده شما، افق پیش‌بینی شما و نیازهای خاص کسب‌وکار شما بستگی دارد. یک مدل ساده ARIMA ممکن است برای داده‌های پایدار و قابل پیش‌بینی عالی باشد، در حالی که یک شبکه LSTM پیچیده ممکن است برای ثبت جزئیات بازارهای مالی پرنوسان مورد نیاز باشد.

با تسلط بر ابزارها و تکنیک‌های مورد بحث - از آماده‌سازی داده‌ها و EDA گرفته تا مدل‌سازی و ارزیابی - می‌توانید از قدرت پایتون برای تبدیل داده‌های تاریخی به یک دارایی استراتژیک استفاده کنید و تصمیم‌گیری آگاهانه‌تر و استراتژی‌های پیشگیرانه برای آینده را ممکن سازید.